이 노트북의 예제를 실행하기 위해서는 datascienceschool/rpython 도커 이미지의 다음 디렉토리로 이동해야 한다.
In [2]:
%cd /home/dockeruser/data/pydata-book-master/
In [1]:
!cat ../../pydata-book-master/ch06/ex1.csv
In [3]:
!cat ch06/ex1.csv
In [2]:
df = pd.read_csv('../../pydata-book-master/ch06/ex1.csv')
df
Out[2]:
names
인수로 설정 가능
In [5]:
!cat ch06/ex2.csv
In [3]:
pd.read_csv('../../pydata-book-master/ch06/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])
Out[3]:
index_col
인수 사용
In [7]:
!cat ch06/csv_mindex.csv
In [6]:
pd.read_csv('../../pydata-book-master/ch06/csv_mindex.csv', index_col=['key1', 'key2'])
Out[6]:
sep
인수 사용
In [9]:
!cat 'ch06/ex3.txt'
In [12]:
pd.read_table('../../pydata-book-master/ch06/ex3.txt', sep='\s+')
Out[12]:
skiprows
사용
In [11]:
!cat ch06/ex4.csv
In [15]:
pd.read_csv('../../pydata-book-master/ch06/ex4.csv', skiprows=[0, 2, 3])
Out[15]:
na_values
인수 사용
In [13]:
!cat ch06/ex5.csv
In [16]:
sentinels = {'message': ['foo', 'NA'], 'something': ['two']}
pd.read_csv('../../pydata-book-master/ch06/ex5.csv', na_values=sentinels)
Out[16]:
nrows
인수 사용
In [20]:
!head ch06/ex6.csv
In [20]:
pd.read_csv('../../pydata-book-master/ch06/ex6.csv', nrows=3)
Out[20]:
In [21]:
df.to_csv('../../pydata-book-master/ch06/out.csv')
In [22]:
!cat ch06/out.csv
sep
인수로 구분자 변경 가능
In [25]:
import sys
df.to_csv(sys.stdout, sep='|')
na_rep
인수로 NA 표시 변경 가능
In [26]:
df.to_csv(sys.stdout, na_rep='NULL')
index
, header
인수로 인덱스 및 헤더 출력 여부 결정 가능
In [27]:
df.to_csv(sys.stdout, index=False, header=False)
In [28]:
titanic = pd.read_csv('http://dato.com/files/titanic.csv', index_col=0)
titanic.tail()
Out[28]:
다음과 같은 인터넷 상의 자료는 pandas_datareader 패키지의 DataReader
을 써서 바로 pandas로 입력 가능
In [1]:
import pandas_datareader.data as web
In [2]:
import datetime
start = datetime.datetime(2015, 1, 1)
end = datetime.datetime(2016, 8, 25)
In [3]:
df = web.DataReader("005930.KS", 'yahoo', start, end)
df.tail()
Out[3]:
In [4]:
df = web.DataReader("KRX:005930", "google", start, end)
df.tail()
Out[4]:
In [5]:
gdp = web.DataReader("GDP", "fred", start, end)
gdp
Out[5]:
In [6]:
inflation = web.DataReader(["CPIAUCSL", "CPILFESL"], "fred", start, end)
inflation
Out[6]: